情感语音分析是一个持续的研究主题。在该领域的一个相对较新的问题是对声乐爆发的分析,即笑声或叹息等非语言发声。解决情感声音爆发分析的当前最新方法主要基于WAV2VEC2或Hubert功能。在本文中,我们研究了WAV2VEC后继数据2VEC与多任务学习管道的使用,以一次解决不同的分析问题。为了评估我们有效的多任务学习体系结构的性能,我们参与了2022 ACII情感声音爆发挑战,这表明我们的方法在三个不同的子任务中大大胜过基线。
translated by 谷歌翻译
反事实思维领域的解释机制是可解释人工智能(XAI)的广泛使用的范式,因为它们遵循一种自然的推理方式,即人类熟悉。但是,该领域的所有常见方法都是基于传达有关特征或特征的信息,这些信息对于AI的决定尤为重要。我们认为,为了充分理解决定,不仅需要有关相关功能的知识,而且对无关信息的意识也很大程度上有助于创建用户的AI系统心理模型。因此,我们介绍了一种解释AI系统的新方法。我们称之为另一个事实解释的方法是基于显示AI输入的无关特征的替代现实。通过这样做,用户直接看到输入数据的哪些特征可以随意更改而不会影响AI的决定。我们在广泛的用户研究中评估了我们的方法,表明它能够为参与者对AI的理解做出重大贡献。我们表明,与既定的反事实解释方法相比,改变的解释适合传达对AI推理不同方面的理解。
translated by 谷歌翻译
求职面试通常是高风险的社交场所,需要专业和行为技巧才能令人满意。专业的工作面试培训师会根据公共标准提供有关显示行为的教育反馈。对于提高工作面试所需的行为技能,这种反馈可能会有所帮助。产生此类反馈的技术方法可能是工作面试培训的嬉戏且低调的起点。因此,我们通过基于生成的对抗网络(GAN)的方法扩展了交互式虚拟工作面试培训系统,该方法首先检测到行为弱点并随后产生个性化的反馈。为了评估生成的反馈的有用性,我们使用求职培训系统的模型进行了一项混合方法试点研究。总体研究结果表明,基于GAN的产生的行为反馈很有帮助。此外,参与者评估反馈将改善他们的工作面试绩效。
translated by 谷歌翻译
Neural Radiance Fields (NeRFs) are emerging as a ubiquitous scene representation that allows for novel view synthesis. Increasingly, NeRFs will be shareable with other people. Before sharing a NeRF, though, it might be desirable to remove personal information or unsightly objects. Such removal is not easily achieved with the current NeRF editing frameworks. We propose a framework to remove objects from a NeRF representation created from an RGB-D sequence. Our NeRF inpainting method leverages recent work in 2D image inpainting and is guided by a user-provided mask. Our algorithm is underpinned by a confidence based view selection procedure. It chooses which of the individual 2D inpainted images to use in the creation of the NeRF, so that the resulting inpainted NeRF is 3D consistent. We show that our method for NeRF editing is effective for synthesizing plausible inpaintings in a multi-view coherent manner. We validate our approach using a new and still-challenging dataset for the task of NeRF inpainting.
translated by 谷歌翻译
许多手持或混合现实设备与单个传感器一起用于3D重建,尽管它们通常包含多个传感器。多传感器深度融合能够实质上提高3D重建方法的鲁棒性和准确性,但是现有技术不够强大,无法处理具有不同值范围以及噪声范围以及噪声和离群统计数据的传感器。为此,我们介绍了Senfunet,这是一种深度融合方法,它可以学习传感器特定的噪声和离群统计数据,并以在线方式将深度框架的数据流组合在一起。我们的方法融合了多传感器深度流,而不论时间同步和校准如何,并且在很少的训练数据中概括了。我们在现实世界中和scene3D数据集以及副本数据集上使用各种传感器组合进行实验。实验表明,我们的融合策略表现优于传统和最新的在线深度融合方法。此外,多个传感器的组合比使用单个传感器更加可靠的离群处理和更精确的表面重建。源代码和数据可在https://github.com/tfy14esa/senfunet上获得。
translated by 谷歌翻译